智能论文笔记

Testing the Robustness of Learned Index Structures

Matthias Bachfischer , Renata Borovica-Gajic , Benjamin I. P. Rubinstein

分类：机器学习

2022-07-23

尽管早期的经验证据支持了学到的索引结构的案例，因为它们具有有利的平均案例表现，但对其最差的表现知之甚少。相比之下，已知经典结构可以实现最佳的最坏情况行为。这项工作评估了在存在对抗工作量的情况下学习指数结构的鲁棒性。为了模拟对抗性工作负载，我们对线性回归模型进行了数据中毒攻击，该模型操纵了训练学习的索引模型的累积分布函数（CDF）。攻击通过将一组中毒键注入训练数据集，从而恶化了基础ML模型的拟合度，从而导致模型的预测误差增加，从而减少了学习指数结构的整体性能。我们评估了各种回归方法的性能和学习指数实现Alex和PGM索引。我们表明，在对中毒与非毒品数据集进行评估时，学到的指数结构可能会遭受高达20％的显着性能恶化。

translated by 谷歌翻译

Solving Dynamic Graph Problems with Multi-Attention Deep Reinforcement Learning

Udesh Gunarathna , Renata Borovica-Gajic , Shanika Karunasekara , Egemen Tanin

分类：机器学习 | 人工智能

2022-01-13

广泛研究和使用旅行推销员问题等图形问题，如旅行推销员问题，或发现最小的施泰纳树在数据工程和计算机科学中使用。通常，在现实世界应用中，图表的特征往往会随着时间的推移而变化，因此，找到问题的解决方案变得具有挑战性。许多图表问题的动态版本是运输，电信和社交网络中普遍世界问题的关键。近年来，利用深度学习技术来寻找NP-Hard图组合问题的启发式解决方案，因为这些学习的启发式可以有效地找到近最佳解决方案。但是，大多数现有的学习启发式方法都关注静态图问题。动态性质使NP-Hard图表问题更具挑战性，并且现有方法无法找到合理的解决方案。在本文中，我们提出了一种名为Cabl时间关注的新型建筑，并利用加固学习（GTA-RL）来学习基于图形的动态组合优化问题的启发式解决方案。 GTA-RL架构包括能够嵌入组合问题实例的时间特征的编码器和能够动态地关注嵌入功能的解码器，以找到给定组合问题实例的解决方案。然后，我们将架构扩展到学习HeuRistics的组合优化问题的实时版本，其中问题的所有输入特征是未知的，而是实时学习。我们针对几种最先进的基于学习的算法和最佳求解器的实验结果表明，我们的方法在动态和效率方面，在有效性和最佳求解器方面优于基于最先进的学习方法。实时图组合优化。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

On the effectiveness of persistent homology

Renata Turkeš , Guido Montúfar , Nina Otter

分类：机器学习

2022-06-21

持续的同源性（PH）是拓扑数据分析中最流行的方法之一。尽管PH已用于许多不同类型的应用程序中，但其成功背后的原因仍然难以捉摸。特别是，尚不知道哪种类别的问题最有效，或者在多大程度上可以检测几何或拓扑特征。这项工作的目的是确定pH在数据分析中比其他方法更好甚至更好的问题。我们考虑三个基本形状分析任务：从形状采样的2D和3D点云中检测孔数，曲率和凸度。实验表明，pH在这些任务中取得了成功，超过了几个基线，包括PointNet，这是一个精确地受到点云的属性启发的体系结构。此外，我们观察到，pH对于有限的计算资源和有限的培训数据以及分布外测试数据，包括各种数据转换和噪声，仍然有效。

translated by 谷歌翻译

Cell segmentation from telecentric bright-field transmitted light microscopy images using a Residual Attention U-Net: a case study on HeLa line

Ali Ghaznavi , Renata Rychtarikova , Mohammadmehdi Saberioon , Dalibor Stys

分类：计算机视觉

2022-03-23

由于图像的复杂性和活细胞的时间变化，来自明亮场光显微镜图像的活细胞分割具有挑战性。最近开发的基于深度学习（DL）的方法由于其成功和有希望的结果而在医学和显微镜图像分割任务中变得流行。本文的主要目的是开发一种基于U-NET的深度学习方法，以在明亮场传输光学显微镜中分割HeLa系的活细胞。为了找到适合我们数据集的最合适的体系结构，提出了剩余的注意U-net，并将其与注意力和简单的U-NET体系结构进行了比较。注意机制突出了显着的特征，并抑制了无关图像区域中的激活。残余机制克服了消失的梯度问题。对于简单，注意力和剩余的关注U-NET，我们数据集的平均值得分分别达到0.9505、0.9524和0.9530。通过将残留和注意机制应用在一起，在平均值和骰子指标中实现了最准确的语义分割结果。应用的分水岭方法适用于这种最佳的（残留的关注）语义分割结果，使每个单元格的特定信息进行了分割。

translated by 谷歌翻译